Direct speech-to-speech translation (S2ST), in which all components can be optimized jointly, is advantageous over cascaded approaches to achieve fast inference with a simplified pipeline. We present a novel two-pass direct S2ST architecture, {\textit UnitY}, which first generates textual representations and predicts discrete acoustic units subsequently. We enhance the model performance by subword prediction in the first-pass decoder, advanced two-pass decoder architecture design and search strategy, and better training regularization. To leverage large amounts of unlabeled text data, we pre-train the first-pass text decoder based on the self-supervised denoising auto-encoding task. Experimental evaluations on benchmark datasets at various data scales demonstrate that UnitY outperforms a single-pass speech-to-unit translation model by 2.5-4.2 ASR-BLEU with 2.83x decoding speed-up. We show that the proposed methods boost the performance even when predicting spectrogram in the second pass. However, predicting discrete units achieves 2.51x decoding speed-up compared to that case.
translated by 谷歌翻译
连接派时间分类(CTC)的模型在自动语音识别(ASR)方面具有吸引力,因为它们的非自动性性质。为了利用仅文本数据,语言模型(LM)集成方法(例如重新纠正和浅融合)已被广泛用于CTC。但是,由于需要降低推理速度,因此他们失去了CTC的非自动性性本质。在这项研究中,我们提出了一种使用电话条件的蒙版LM(PC-MLM)的误差校正方法。在提出的方法中,掩盖了来自CTC的贪婪解码输出中的较不自信的单词令牌。然后,PC-MLM预测这些蒙版的单词令牌给定的单词和手机补充了CTC。我们进一步将其扩展到可删除的PC-MLM,以解决插入错误。由于CTC和PC-MLM均为非自动回旋模型,因此该方法可以快速LM集成。在域适应设置中对自发日本(CSJ)和TED-LIUM2语料库进行的实验评估表明,我们所提出的方法在推理速度方面优于重新逆转和浅融合,并且在CSJ上的识别准确性方面。
translated by 谷歌翻译
Connectionist时间分类(CTC)的模型很有吸引力,因为它们在自动语音识别(ASR)中的快速推断。语言模型(LM)集成方法(例如浅融合和重新恢复)可以通过利用文本语料库的知识来提高基于CTC的ASR的识别准确性。但是,它们大大减慢了CTC的推论。在这项研究中,我们建议提炼基于CTC的ASR的BERT知识,从而扩展了我们先前针对基于注意的ASR的研究。基于CTC的ASR在训练过程中学习了BERT的知识,并且在测试过程中不使用BERT,从而维持CTC的快速推断。与基于注意力的模型不同,基于CTC的模型做出了框架级预测,因此它们需要与BERT的令牌级预测进行蒸馏。我们建议通过计算最合理的CTC路径来获得比对。对自发日语(CSJ)和TED-LIUM2语料库的实验评估表明,我们的方法改善了基于CTC的ASR的性能,而无需推理速度成本。
translated by 谷歌翻译
人的凝视是一种成本效益的生理数据,揭示了人类的潜在注意力模式。选择性注意机制有助于通过忽略分散剂的存在,帮助认知系统专注于任务相关的视觉线索。由于这种能力,人类可以有效地从一个非常有限数量的训练样本中学习。灵感来自这种机制,我们旨在利用具有小型训练数据的医学图像分析任务的凝视。我们所提出的框架包括骨干编码器和选择性注意网络(SAN),用于模拟潜在的注意力。 SAN通过估计实际的人的凝视,隐含地编码与医学诊断任务相关的可疑区域。然后我们设计一种新颖的辅助注意力块(AAB),以允许从骨干编码器使用SAN的信息,以专注于选择性区域。具体而言,该块使用多针注意层的修改版本来模拟人类视觉搜索过程。请注意,SAN和AAB可以插入不同的底部,并且在配备有任务特定的头部时,该框架可用于多个医学图像分析任务。我们的方法经过证明在3D肿瘤分割和2D胸X射线分类任务中实现了卓越的性能。我们还表明,SAN的估计凝视概率图与由董事会认证的医生获得的实际凝视固定图一致。
translated by 谷歌翻译